Tổng quan và Bức tranh tiến hóa kiến trúc

Chúng ta chuyển từ thành công nền tảng của AlexNet sang thời kỳ của các mạng nơ-ron sâu cực kỳ mạng nơ-ron tích chập (CNNs). Sự thay đổi này đòi hỏi những đổi mới kiến trúc sâu sắc để xử lý độ sâu cực lớn mà vẫn duy trì tính ổn định trong huấn luyện. Chúng ta sẽ phân tích ba kiến trúc then chốt—VGG, GoogLeNet (Inception), và ResNet—hiểu cách mỗi kiến trúc giải quyết các khía cạnh khác nhau của bài toán mở rộng quy mô, tạo nền tảng cho việc diễn giải mô hình một cách nghiêm ngặt ở phần sau của bài học này.

1. Tính đơn giản về cấu trúc: VGG

VGG đã giới thiệu phương pháp tối đa hóa độ sâu bằng cách sử dụng các kích thước bộ lọc nhỏ và cực kỳ đồng nhất (chỉ có bộ lọc tích chập 3x3được chồng lên nhau). Mặc dù tốn kém về mặt tính toán, nhưng sự đồng nhất về cấu trúc của nó đã chứng minh rằng độ sâu thực tế, đạt được nhờ sự thay đổi kiến trúc tối thiểu, chính là yếu tố chủ chốt thúc đẩy cải thiện hiệu suất, củng cố tầm quan trọng của các trường nhận diện nhỏ.

2. Hiệu quả tính toán: GoogLeNet (Inception)

GoogLeNet đã khắc phục chi phí tính toán cao của VGG bằng cách ưu tiên hiệu quả và trích xuất đặc trưng đa quy mô. Đột phá cốt lõi là module Inception, thực hiện các phép tích chập song song (1x1, 3x3, 5x5) và trích xuất đặc trưng. Quan trọng nhất, nó sử dụng tích chập 1x1 như là các điểm nghẽnđể giảm mạnh số lượng tham số và độ phức tạp tính toán trước các thao tác tốn kém.

Thách thức kỹ thuật then chốt

Học tập dư thừa: ResNet

ResNet đã giải quyết vấn đề suy giảm hiệu suất bằng cách giới thiệu ánh xạ đồng nhất (kết nối bỏ qua). Đường tắt không tuần tự này cho phép mạng học một hàm dư thừa $F(x)$ thay vì ánh xạ trực tiếp $H(x)$, thực sự đảm bảo rằng việc thêm nhiều tầng chỉ có thể cải thiện hoặc duy trì hiệu suất, từ đó cải thiện đáng kể tính ổn định trong quá trình tối ưu hóa.

Diagram showing a ResNet skip connection architecture

Câu hỏi 1

Kiến trúc nào nhấn mạnh tính đồng nhất về cấu trúc bằng cách sử dụng chủ yếu các bộ lọc 3x3 để tối đa hóa độ sâu?

AlexNet

VGG

GoogLeNet

ResNet

Câu hỏi 2

Tích chập 1x1 chủ yếu được dùng trong module Inception với mục đích cơ bản nào?

Tăng độ phân giải bản đồ đặc trưng

Kích hoạt phi tuyến

Giảm chiều dữ liệu (điểm nghẽn)

Chú ý không gian

Thách thức then chốt: Hiện tượng gradient biến mất

Các giải pháp kỹ thuật cho tối ưu hóa

Giải thích cách ánh xạ đồng nhất của ResNet giải quyết căn bản vấn đề gradient biến mất, vượt xa các kỹ thuật như khởi tạo trọng số cải tiến hay chuẩn hóa_batch.

Câu hỏi 1

Mô tả cơ chế mà đường nối bỏ qua giúp ổn định dòng gradient trong quá trình truyền ngược.

Lời giải:
Đường nối bỏ qua đưa vào đầu ra một hạng tử đồng nhất ($+x$), tạo ra một hạng tử cộng dồn trên đường đi của đạo hàm ($\frac{\partial Loss}{\partial H} = \frac{\partial Loss}{\partial F} + 1$). Hạng tử này đảm bảo tồn tại một con đường trực tiếp cho tín hiệu gradient chảy ngược lại, đảm bảo rằng các trọng số phía trước luôn nhận được tín hiệu gradient không bằng 0 và có thể sử dụng, bất kể độ nhỏ của gradient qua hàm dư thừa $F(x)$ là bao nhiêu.